Depth cues are known to be useful for visual perception. However, direct measurement of depth is often impracticable. Fortunately, though, modern learning-based methods offer promising depth maps by inference in the wild. In this work, we adapt such depth inference models for object segmentation using the objects' ``pop-out'' prior in 3D. The ``pop-out'' is a simple composition prior that assumes objects reside on the background surface. Such compositional prior allows us to reason about objects in the 3D space. More specifically, we adapt the inferred depth maps such that objects can be localized using only 3D information. Such separation, however, requires knowledge about contact surface which we learn using the weak supervision of the segmentation mask. Our intermediate representation of contact surface, and thereby reasoning about objects purely in 3D, allows us to better transfer the depth knowledge into semantics. The proposed adaptation method uses only the depth model without needing the source data used for training, making the learning process efficient and practical. Our experiments on eight datasets of two challenging tasks, namely camouflaged object detection and salient object detection, consistently demonstrate the benefit of our method in terms of both performance and generalizability.
translated by 谷歌翻译
Novel view synthesis and 3D modeling using implicit neural field representation are shown to be very effective for calibrated multi-view cameras. Such representations are known to benefit from additional geometric and semantic supervision. Most existing methods that exploit additional supervision require dense pixel-wise labels or localized scene priors. These methods cannot benefit from high-level vague scene priors provided in terms of scenes' descriptions. In this work, we aim to leverage the geometric prior of Manhattan scenes to improve the implicit neural radiance field representations. More precisely, we assume that only the knowledge of the scene (under investigation) being Manhattan is known - with no additional information whatsoever - with an unknown Manhattan coordinate frame. Such high-level prior is then used to self-supervise the surface normals derived explicitly in the implicit neural fields. Our modeling allows us to group the derived normals, followed by exploiting their orthogonality constraints for self-supervision. Our exhaustive experiments on datasets of diverse indoor scenes demonstrate the significant benefit of the proposed method over the established baselines.
translated by 谷歌翻译
有效利用多模式输入以进行准确的RGB-D显着性检测是一个引起人们兴趣的话题。大多数现有作品都利用跨模式的交互来融合RGB-D的两个流以进行中间功能的增强。在此过程中,尚未完全考虑可用深度质量低的实际方面。在这项工作中,我们的目标是RGB-D显着性检测,这对低质量的深度具有鲁棒性,这些深度主要出现在两种形式:由于噪声和对RGB的错位而导致的不准确。为此,我们提出了一种强大的RGB-D融合方法,该方法从(1)层方面受益,以及(2)三叉戟的空间,注意机制。一方面,根据深度精度,层次的注意力(LWA)学习了RGB和深度特征的早期和晚期融合之间的权衡。另一方面,三叉戟的空间注意力(TSA)汇总了更广泛的空间环境中的特征,以解决深度错位问题。所提出的LWA和TSA机制使我们能够有效利用多模式输入以进行显着检测,同时对低质量的深度进行健壮。我们在五个基准数据集上进行的实验表明,所提出的融合方法的性能始终如一要比最先进的融合替代方案更好。
translated by 谷歌翻译
在大多数情况下,有条件的图像生成可以被认为是对图像理解过程的反转。由于通用图像理解涉及解决多个任务,因此自然要通过多条件来生成图像。但是,由于异质性和(实际上)可用条件标签的稀疏性,多条件图像生成是一个非常具有挑战性的问题。在这项工作中,我们提出了一种新型的神经结构,以解决空间多条件标签的异质性和稀疏性问题。我们选择的空间条件(例如语义和深度)是由它具有更好地控制图像生成过程的承诺所驱动的。所提出的方法使用类似变压器的体系结构操作像素,该架构将可用的标签作为输入令牌接收,以将其合并在学习的标签均匀空间中。然后,合并的标签用于通过有条件的生成对抗训练进行图像生成。在此过程中,通过简单地将与所需位置的缺失标签相对应的输入令牌掉下来处理标签的稀疏性,这要归功于提议的像素操作架构。我们在三个基准数据集上进行的实验证明了我们的方法比最新的基准和比较基线的明显优势。源代码将公开可用。
translated by 谷歌翻译
我们在视觉变压器中引入完全随机层,而不会导致任何严重的性能下降。额外的随机性提高了视觉特征的鲁棒性,并加强了隐私。在该过程中,在训练和推理期间使用具有完全随机参数的线性层,以改变每个多层Perceptron的特征激活。这种随机线性操作保留了由通过共用多层Perceptron的令牌形成的拓扑结构。此操作鼓励学习识别任务依赖令牌的拓扑结构,而不是它们的值,而不是它们的值,这反过来提供了可视化功能的所需的鲁棒性和隐私。在本文中,我们使用我们的特性进行三种不同的应用程序,即对抗鲁棒性,网络校准和特征隐私。我们的功能为这些任务提供令人兴奋的结果。此外,我们展示了联合和转移学习的实验设置,其中具有随机层的视觉变压器再次显示出良好的表现。我们的源代码将公开可用。
translated by 谷歌翻译
在本文中,我们研究了使用它们的关键点的形状和姿势的表示。因此,我们提出了一种端到端的方法,其同时从图像中检测2D关键点并将它们升到3D。该方法仅从2D关键点注释学习2D检测和3D升降。在这方面,提出了一种通过基于增强的循环自我监督来明确地解除姿势和3D形状的新方法。除了在图像到3D学习的图像端到端,我们的方法还使用单个神经网络处理来自多个类别的对象。我们使用基于变换器的架构来检测关键点,以及总结图像的视觉上下文。然后将该视觉上下文信息升降到3D时,以允许基于上下文的推理以获得更好的性能。在提升时,我们的方法学习一小一小一组基础形状和稀疏的非负系数,以表示规范框架中的3D形状。我们的方法可以处理闭塞以及各种各样的对象类。我们对三个基准测试的实验表明,我们的方法比现有技术更好。我们的源代码将公开可用。
translated by 谷歌翻译
对道路网拓扑的了解对于自主规划和导航至关重要。然而,只有部分探讨了从单个图像中恢复此类拓扑结构。此外,它需要指地面平面,也需要驾驶动作。本文旨在提取当地路网拓扑,直接在鸟瞰图(BEV)中,全部都在复杂的城市环境中。唯一的输入包括单个板载,前瞻性相机图像。我们使用一系列定向的车道曲线及其交互来代表道路拓扑,它们使用它们的交叉点捕获。为了更好地捕获拓扑,我们介绍了\ emph {最小循环}及其封面的概念。最小循环是由指向曲线段(两个交叉点)形成的最小循环。盖子是一组曲线,其段涉及形成最小循环。我们首先表明封面足以唯一代表道路拓扑。然后将封面用于监督深度神经网络,以及车道曲线监控。这些学习从单个输入图像预测道路拓扑。 NUSCENES和协会基准测试的结果明显优于基线获得的结果。我们的源代码将公开可用。
translated by 谷歌翻译
传统的域自适应语义细分解决了在有限或没有其他监督下,将模型调整为新的目标域的任务。在解决输入域间隙的同时,标准域的适应设置假设输出空间没有域的变化。在语义预测任务中,通常根据不同的语义分类法标记不同的数据集。在许多现实世界中,目标域任务需要与源域施加的分类法不同。因此,我们介绍了更通用的自适应跨域语义细分(TAC)问题,从而使两个域之间的分类学不一致。我们进一步提出了一种共同解决图像级和标签级域适应的方法。在标签级别上,我们采用双边混合采样策略来增强目标域,并采用重新标记方法来统一和对齐标签空间。我们通过提出一种不确定性构造的对比度学习方法来解决图像级域间隙,从而导致更多的域不变和类别的歧义特征。我们在不同的TACS设置下广泛评估了框架的有效性:开放分类法,粗到精细的分类学和隐式重叠的分类学。我们的方法的表现超过了先前的最先进的利润,同时能够适应目标分类法。我们的实施可在https://github.com/ethruigong/tada上公开获得。
translated by 谷歌翻译
Video enhancement is a challenging problem, more than that of stills, mainly due to high computational cost, larger data volumes and the difficulty of achieving consistency in the spatio-temporal domain. In practice, these challenges are often coupled with the lack of example pairs, which inhibits the application of supervised learning strategies. To address these challenges, we propose an efficient adversarial video enhancement framework that learns directly from unpaired video examples. In particular, our framework introduces new recurrent cells that consist of interleaved local and global modules for implicit integration of spatial and temporal information. The proposed design allows our recurrent cells to efficiently propagate spatio-temporal information across frames and reduces the need for high complexity networks. Our setting enables learning from unpaired videos in a cyclic adversarial manner, where the proposed recurrent units are employed in all architectures. Efficient training is accomplished by introducing one single discriminator that learns the joint distribution of source and target domain simultaneously. The enhancement results demonstrate clear superiority of the proposed video enhancer over the state-of-the-art methods, in all terms of visual quality, quantitative metrics, and inference speed. Notably, our video enhancer is capable of enhancing over 35 frames per second of FullHD video (1080x1920).
translated by 谷歌翻译
随着网络攻击和网络间谍活动的增长,如今需要更好,更强大的入侵检测系统(IDS)的需求更加有必要。 ID的基本任务是在检测Internet的攻击方面充当第一道防线。随着入侵者的入侵策略变得越来越复杂且难以检测,研究人员已经开始应用新颖的机器学习(ML)技术来有效地检测入侵者,从而保留互联网用户对整个互联网网络安全的信息和整体信任。在过去的十年中,基于ML和深度学习(DL)架构的侵入检测技术的爆炸激增,这些架构在各种基于网络安全的数据集上,例如DARPA,KDDCUP'99,NSL-KDD,CAIDA,CAIDA,CTU--- 13,UNSW-NB15。在这项研究中,我们回顾了当代文献,并提供了对不同类型的入侵检测技术的全面调查,该技术将支持向量机(SVMS)算法作为分类器。我们仅专注于在网络安全中对两个最广泛使用的数据集进行评估的研究,即KDDCUP'99和NSL-KDD数据集。我们提供了每种方法的摘要,确定了SVMS分类器的作用以及研究中涉及的所有其他算法。此外,我们以表格形式对每种方法进行了批判性综述,突出了所调查的每种方法的性能指标,优势和局限性。
translated by 谷歌翻译